随机梯度下降(SGD)是现代机器学习(ML)系统的基石。尽管具有其计算效率,但SGD仍需要随机数据访问,这些数据访问在依赖块可调地理的二级存储的系统中实现效率低下,例如HDD和SSD,例如TensorFlow/Pytorch和DB ML系统,而不是大文件。为了解决这种阻抗不匹配,已经提出了各种数据改组策略,以平衡SGD的收敛速率(有利于随机性)及其I/O性能(有利于顺序访问)。在本文中,我们首先对现有数据改组策略进行系统的实证研究,该研究表明,所有现有策略都有改进的空间 - 它们都在I/O性能或融合率方面受苦。考虑到这一点,我们提出了一种简单但新颖的分层数据改组策略Corgipile。与现有的策略相比,Corgipile避免了完整的数据洗牌,同时保持SGD的可比收敛速度,就好像执行了完整的混音一样。我们对Corgipile的融合行为提供了非平凡的理论分析。我们通过在新的CorgipileDataSet API中设计新的平行/分布式洗牌操作员来进一步将Corgipile整合到Pytorch中。我们还通过介绍具有优化的三个新的物理运营商,将Corgipile集成到PostgreSQL中。我们的实验结果表明,Corgipile可以与全面的SGD达到可比的收敛速率,以实现深度学习和广义线性模型。对于ImageNet数据集的深度学习模型,Corgipile比带有完整数据洗牌的Pytorch快1.5倍。对于具有线性模型的INDB ML,在HDD和SSD上,Corgipile的Corgipile比两个最先进的IN-DB ML系统(Apache Madlib和Bismarck)快1.6 x-12.8倍。
translated by 谷歌翻译
转移学习可以看作是从头开始的数据和计算效率替代培训模型的替代方法。丰富的模型存储库(例如TensorFlow Hub)的出现使从业人员和研究人员能够在各种下游任务中释放这些模型的潜力。随着这些存储库的成倍增长,有效地为手头任务选择一个好的模型变得至关重要。通过仔细比较各种选择和搜索策略,我们意识到,没有一种方法优于其他方法,而混合或混合策略可以是有益的。因此,我们提出了Shift,这是用于转移学习的第一个下游任务感知,灵活和有效的模型搜索引擎。这些属性由自定义查询语言shift-ql以及基于成本的决策者以及我们经验验证的基于成本的决策者启用。受机器学习开发的迭代性质的促进,我们进一步支持对查询的有效递增执行,这需要与我们的优化共同使用时进行仔细的实施。
translated by 谷歌翻译
收集人类判断是目前最可靠的自然语言生成系统评估方法。当申请衡量所生成文本的质量方面时,自动指标已经报告缺陷,并且已被证明与人类判断不佳。然而,人类评估是时间和成本密集,我们缺乏关于设计和进行人体评估实验的共识。因此,需要在评估自然语言生成系统时有效地收集人类判断的简化方法。因此,当在相对比较设置中评估生成的输出时,我们介绍了一种动态方法来测量所需的人类注释数量。我们提出了一种基于代理人的人类评估框架,以评估多种标签策略和方法来决定模拟和众包案例研究中的更好模型。主要结果表明,可以在不同标签策略上具有高概率来制定关于卓越模式的决定,其中每个任务分配单个随机工人需要最小的整体标记努力,因此是最低的成本。
translated by 谷歌翻译
贝叶斯错误率(BER)是机器学习中的基本概念,这些概念量化了任何分类器可以在固定概率分布上实现的最佳精度。尽管对BER的下限和上限的建筑估算有多年的研究,但这些通常只比较了具有已知概率分布的合成数据集,留下了两个关键问题:(1)它们在现实世界数据集中执行程度? (2)他们有多实用?回答这些并不琐碎。除了对现实世界数据集未知BER的明显挑战之外,任何BER估算器都需要克服的两个主要方面,以便适用于现实世界的环境:(1)计算和采样复杂度,以及(2)超参数的敏感性和选择。在这项工作中,我们提出了第一个分析和比较任何现代现实世界数据集的BER估计的主要框架,具有未知概率分布。我们通过在一系列不同的噪声水平上注入受控的标签噪声并对一系列不同的噪声水平进行多种评估来实现这一点,这是通过理论结果支持的,这允许借鉴关于BER的演变的结论。通过在6个常用的计算机视觉和NLP域的常用数据集上实施和分析7个多级BER估计,FEYBEE允许对这些估算器进行全面研究,清楚地识别每个的优势和弱点,同时在任何未来的BER估算器上轻松部署。
translated by 谷歌翻译
在我们与正在使用当今汽车系统的领域专家合作的经验中,我们遇到的一个常见问题是我们所说的“不切实际的期望” - 当用户通过嘈杂的数据获取过程面临非常具有挑战性的任务时,同时被期望实现机器学习(ML)的精度非常高。其中许多是从一开始就失败的。在传统的软件工程中,通过可行性研究解决了此问题,这是开发任何软件系统之前必不可少的一步。在本文中,我们介绍了Snoopy,目的是支持数据科学家和机器学习工程师在构建ML应用之前进行系统和理论上建立的可行性研究。我们通过估计基本任务的不可还原错误(也称为贝叶斯错误率(BER))来解决此问题,这源于用于训练或评估ML模型工件的数据集中的数据质量问题。我们设计了一个实用的贝叶斯误差估计器,该估计值与计算机视觉和自然语言处理中的6个数据集(具有不同级别的其他实际和合成噪声)上的基线可行性研究候选者进行了比较。此外,通过将我们的系统可行性研究和其他信号包括在迭代标签清洁过程中,我们在端到端实验中证明了用户如何能够节省大量的标签时间和货币努力。
translated by 谷歌翻译
In intensively managed forests in Europe, where forests are divided into stands of small size and may show heterogeneity within stands, a high spatial resolution (10 - 20 meters) is arguably needed to capture the differences in canopy height. In this work, we developed a deep learning model based on multi-stream remote sensing measurements to create a high-resolution canopy height map over the "Landes de Gascogne" forest in France, a large maritime pine plantation of 13,000 km$^2$ with flat terrain and intensive management. This area is characterized by even-aged and mono-specific stands, of a typical length of a few hundred meters, harvested every 35 to 50 years. Our deep learning U-Net model uses multi-band images from Sentinel-1 and Sentinel-2 with composite time averages as input to predict tree height derived from GEDI waveforms. The evaluation is performed with external validation data from forest inventory plots and a stereo 3D reconstruction model based on Skysat imagery available at specific locations. We trained seven different U-net models based on a combination of Sentinel-1 and Sentinel-2 bands to evaluate the importance of each instrument in the dominant height retrieval. The model outputs allow us to generate a 10 m resolution canopy height map of the whole "Landes de Gascogne" forest area for 2020 with a mean absolute error of 2.02 m on the Test dataset. The best predictions were obtained using all available satellite layers from Sentinel-1 and Sentinel-2 but using only one satellite source also provided good predictions. For all validation datasets in coniferous forests, our model showed better metrics than previous canopy height models available in the same region.
translated by 谷歌翻译
Machine learning has emerged recently as a powerful tool for predicting properties of quantum many-body systems. For many ground states of gapped Hamiltonians, generative models can learn from measurements of a single quantum state to reconstruct the state accurately enough to predict local observables. Alternatively, kernel methods can predict local observables by learning from measurements on different but related states. In this work, we combine the benefits of both approaches and propose the use of conditional generative models to simultaneously represent a family of states, by learning shared structures of different quantum states from measurements. The trained model allows us to predict arbitrary local properties of ground states, even for states not present in the training data, and without necessitating further training for new observables. We numerically validate our approach (with simulations of up to 45 qubits) for two quantum many-body problems, 2D random Heisenberg models and Rydberg atom systems.
translated by 谷歌翻译
彼此接触的任何两个物体都会仅仅是由于重力或机械接触而引起的力,例如机器人手臂抓住一个物体,甚至是我们膝关节处的两个骨头之间的接触。自然测量和监视这些接触力的能力允许从仓库管理(基于重量检测错误包装)到机器人技术(使机器人臂的抓地力与人类皮肤一样敏感)和医疗保健(膝关节植入物)的大量应用。设计一个无处不在的力传感器是充满挑战的,该传感器可自然地用于所有这些应用。首先,传感器应足够小,以适合狭窄的空间。接下来,我们不想铺设笨重的电缆来读取传感器的力值。最后,我们需要进行无电池设计以满足体内应用程序。我们开发了WiforCesticker,这是一种无线,无电池,类似贴纸的力传感器,可以在任何表面上都可以无处不在,例如所有仓库包装,机器人手臂和膝关节。 WiforCesticker首先设计一个$ 4 $ 〜mm〜 $ \ $ \ times $〜$〜$ 2 $ 〜mm〜 $ \ $ \ times $〜$〜$〜$ 0.4 $〜毫米电容传感器设计,配备了$ 10 $〜$〜$〜$〜$〜$〜$〜$ 〜mm〜mm 〜mm 〜mm 〜mm在灵活的PCB基材上设计。其次,它引入了一种新的机制,可以通过将传感器与COTS RFID系统插入传感器,从而无线读取器无线读取器可以通过无线读取器读取力信息。该传感器可以在多个测试环境中检测到$ 0 $ -6 $ 〜n的力量,感应精度为$ <0.5 $ 〜n,并在传感器上使用超过10,000美元的$ 10,000 $变化的力级按下。我们还通过设计传感器展示了两个应用程序案例研究,称量仓库包和骨接头施加的传感力。
translated by 谷歌翻译
我们提供了一种差异化私有算法,用于同时生成多个任务的合成数据:边际查询和多任务机器学习(ML)。我们算法中的一个关键创新是能够直接处理数值特征的能力,与许多相关的先验方法相反,这些方法需要首先通过{binning策略}将数值特征转换为{高基数}分类特征。为了提高准确性,需要较高的分子粒度,但这会对可伸缩性产生负面影响。消除对套在一起的需求使我们能够产生合成数据,以保留大量统计查询,例如数值特征的边际和条件线性阈值查询。保留后者意味着在特定半空间上方的每个类标记的点的比例在实际数据和合成数据中都大致相同。这是在多任务设置中训练线性分类器所需的属性。我们的算法还使我们能够为混合边缘查询提供高质量的合成数据,这些数据结合了分类和数值特征。我们的方法始终比最佳可比技术快2-5倍,并在边缘查询和混合型数据集的线性预测任务方面提供了显着的准确性改进。
translated by 谷歌翻译
随着深度学习算法在时间序列分类中的应用越来越多,尤其是在高风化场景中,解释这些算法的相关性成为关键。尽管时间序列的可解释性研究已经增长,但从业者的可访问性仍然是一个障碍。没有统一的API或框架,使用的可解释性方法及其可视化的使用方式多样。为了缩小这一差距,我们介绍了TSInterpret易于扩展的开源Python库,用于解释将现有解释方法结合到一个统一框架中的时间序列分类器的预测。库功能(i)最先进的可解释性算法,(ii)公开了统一的API,使用户能够始终如一地使用解释,并为每种说明提供合适的可视化。
translated by 谷歌翻译